VLP (Vision-Language Pre-training)

시각(Vision) 데이터와 언어(Language) 데이터를 동시에 이해하고 생성할 수 있도록 모델을 대규모 데이터셋으로 **사전 학습(Pre-training)**시키는 기술을 의미한다. 기존의 단일 모달리티(이미지만 처리하거나 텍스트만 처리) 모델들과 달리, VLP 모델은 이미지 내의 시각적 특징(spatial features)과 언어의 의미적 관계(semantic relations)를 동시에 학습하여 두 정보 간의 연관성을 파악한다.

BLIP-2 (Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models)